Hi大家好,我是Hilda。這是30天挑戰賽的第一天。最近換了新工作,新工作用到大量的Pandas,在AI的輔助下算是得以快速完成需求,雖然如此卻總覺得用得朦朦朧朧的,好像會又好像不會,類似的問題一直讓GPT重覆回答,這樣運算耗掉太多沒必要的電力,為了美麗的地球,我決定認真學會它,順便留下一些紀錄。
這30天的分享,將會主要參考官方文件和Matt Harrison/Theodore Petrou的『Pandas資料清理、重塑、過濾、視覺化』(是一本好書,相當淺顯易懂)為架構展開,再佐以一些工作上實用案例介紹,希望在Pandas的路上與大家一起進步,也希望有理解錯誤之處各位大大不吝指教。
大綱如下:
- 第1週:Pandas 基礎
- 認識 Pandas:DataFrame vs Excel
- 讀寫資料:CSV / Excel / JSON
- 基礎檢視:head/info/describe
- 選取資料:loc / iloc
- 條件過濾
- 新增/修改/刪除欄位
- 缺失值處理
- 第2週:Pandas 進階 -1/2
- 排序與 reset index
- GroupBy 與彙總
- agg: 多重聚合
- merge:資料橫向拼接
- concat:資料上下拼接
- pivot_table 樞紐分析
- melt:寬表轉長表
- 第3週:Pandas 進階 -2/2
- apply / map 實戰
- Method chaining:一氣呵成
- 日期與時間處理
- 字串處理
- 重複值處理
- 效能優化:astype / category
- 綜合案例:建立「每月銷售報告」
- 第4週:Matplotlib
- 初探Matplotlib:畫第一張圖
- 長條圖
- 直方圖
- 散點圖
- 時間序列圖
- 美化圖表 / 多圖 subplot
- 綜合案例:建立一份「銷售 Dashboard」
不一定會依照日期依序介紹,但每周會涵蓋到這些主題。
以上,我們開始吧!